16 - Mathematische Grundlagen zu Künstliche Intelligenz, Neuronale Netze und Data Analytics II [ID:30686]
50 von 620 angezeigt

Also unser nächstes Kapitel hier ist optimal control und reinforcement learning,

wobei ich das so entwickeln werde, dass ich einen kurzen Abfrist der Kontrolltheorie erzähle und

dann darauf übergehe, dass wir hier eben nicht vorgegebene Gleichungen haben, sondern durch

neuere gelernte Gleichungen haben, wo wir unsere optimalen Störungen einbauen wollen. Wie muss

das also angehen? Wir stellen uns ein technisches Problem jetzt vor, dass hier ist eine Windturbine,

die steht irgendwo vor Dänemark und die Frage jetzt heißt, wie kann ich das als dynamisches

System zu identifizieren? Wie kann ich rauskriegen, in welchem Zustand diese Turbine ist?

Und wie muss ich dann einen Controller machen, um die Turbine zu steuern? Und das ist sozusagen

die Frage, die wir da rein nach angucken müssen. Also warum ist das überhaupt ein Problem? Man

könnte sagen, die steht auch gut, da soll es halt möglichst viel Strom erzeugen. Naja, also erstens

ist so eine Turbine ein riesiges Objekt und um die genau kontrollieren zu können, muss man halt wissen,

wie die sich verhalten wird, wenn ich irgendwelche Einstellungen dabei ändere. Also wenn ich zum

Beispiel den Winkel von den Flügeln hier leicht ändere, wie schnell wird sich dann eben die

Drehgeschwindigkeit ändern, all solche Sachen. Das Zweite ist, in welchem Zustand ist die Turbine denn?

Da könnte man ja einfach sagen, ja das mess ich halt, ende. Ja, aber oft ist es so, dass die

Messung in der Gegenwart nicht vollständig charakterisiert, in welchem Zustand ein dynamisches

System ist, sondern man muss eine ganze Folge von Messungen angucken, um daraus zu akkumulieren,

in welchem inneren Zustand die ganzen Hidden-Variablen jetzt sind. Also schauen Sie, wenn Sie ein dynamisches

System haben, was Sie vollständig beobachten können, können Sie natürlich sagen, ich mess

alles und alles ist gut. Aber wenn das dynamisches System Hidden-Variablen hat, dann müssen Sie ja

die interne Größe von den Hidden-Variablen dadurch akkumulieren, dass Sie eben mehrere

Zeitschritte zusammenfassen. Also State Estimation ist auch ein Punkt für sich. Der dritte Punkt

davon ist, ja wie mache ich denn jetzt einen Controller? Ein Controller besteht ja nicht nur

darin, dass ich sage, also jetzt muss ich den Schalter so rumlegen, dann ist gut, nein, ich muss

ja eine Aktion planen, die nicht nur jetzt, sondern auch über einen ganzen Zeithorizont in die Zukunft

hinein dann optimal sein soll. Also mit den Fragen werden wir uns dann beschäftigen müssen und das

will ich jetzt am Anfang mal nicht mit den Neuromethoden machen, sondern so, wie ich Kontrolltheorie

erklären würde. Und wenn man Kontrolltheorie erklären will, da gibt es eigentlich sozusagen zwei Ansätze,

wie man das machen kann. Ich habe mich hier bemüht, den ersten Ansatz mal völlig auf eine Folie zu

quetschen, also deswegen ist die so voll. Da steht auch teilweise mehrfach dasselbe drauf.

Das muss man uns jetzt Stück für Stück angucken, sonst macht es keinen Sinn, was danach kommt. Also die

Aufgabe ist, ich habe ein dynamisches System, das steht hier. Und ich habe eine Zielvorstellung,

die 0 ist, also jetzt die Zukunft, also ist die Gegenwart, Entschuldigung, und groß T ist

irgend ein Wert in der Zukunft. Und ich frage mich, wie muss ich die Steuerungsgrößen u, angefangen

von der Gegenwart bis weit in die Zukunft hinein, wie muss ich die ändern, damit eben irgendeine

Reward Function l hier, damit die eben optimal wird. Und die Reward Function hängt eben nicht nur davon

ab, welche Kontrollgrößen ich jetzt steuere, sondern auch, wie sich daraufhin das dynamische

System verhält, sprich, wie sich die internal States von einem dynamischen System weiterentwickeln.

Also sehr wohl die Kontrollgrößen selber haben direkten Einfluss auf die Reward Function, weil

es könnte anstrengend sein, es könnte Geldkosten oder Energiekosten die Kontrollen auszuführen,

aber es ist eben auch die Reaktion des dynamischen Systems darauf, was eben der wichtige Teil in der

Funktion l ist. Und so will ich also nicht nur eine optimale Steuerung in der Gegenwart haben,

sondern ich will eine optimale Steuerung haben über einen ganzen Zeitfahrt hinweg, also von der

Gegenwart jetzt bis zu groß T minus eins in der Zukunft. Ja, warum man da nicht groß T schreibt,

so ein groß T minus eins sehen wir gleich noch. Und also das ist die Aufgabe. Das ist sozusagen

die Standardaufgabe optimal control unter der Bedingung, wenn sie diskrete Zeit haben. Wenn

sie optimal control als Mathematikvorlesung hören, dann kriegen sie das oft so angeboten,

dass sie nicht über diskrete Zeit reden, sondern über kontinuierliche Systeme. Da wurde dann also

jetzt hier stehen ds nach dt ist gleich F von s,u und hier unten das wäre keine Summe,

sondern wäre ein Integral von null bis groß T von s,u und so weiter und dann wieder zu Minimum.

Zugänglich über

Offener Zugang

Dauer

01:10:30 Min

Aufnahmedatum

2021-04-09

Hochgeladen am

2021-04-09 18:46:17

Sprache

de-DE

Einbetten
Wordpress FAU Plugin
iFrame
Teilen